大型语言模型(LLMS)的摘要最新进展启用了令人兴奋的LLM集成应用程序,该应用程序通过利用其先进的语言理解功能来执行基于文本的任务。但是,随着LLM的改善,对它们的攻击也有所改善。提示注射攻击是一个重要的威胁:它们欺骗模型偏离原始应用程序的说明,而是遵循用户指令。这些攻击取决于LLM遵循说明和无法分开提示和用户数据的能力。我们介绍了结构化查询,这是解决此问题的一般方法。结构化查询将提示和数据分为两个通道。我们实施了一个支持结构化查询的系统。该系统由(1)安全的前端制成,该前端将及时和用户数据格式化为特殊格式,以及(2)经过特殊训练的LLM,可以从这些输入中产生高质量的输出。使用新颖的微调策略对LLM进行了训练:我们将基础(非指导)LLM转换为结构化指令调节模型,该模型只会遵循查询及时的指示。为此,我们通过示例增加了标准指令调整数据集,其中还包括查询数据部分中的说明,然后微调模型以忽略这些指令。我们的系统大大提高了对迅速注射攻击的阻力,对公用事业的影响很小或没有影响。我们的代码在此处发布。
主要关键词